机器人布操作是自动机器人系统的相关挑战性问题。高度可变形的对象,因为纺织品在操纵过程中可以采用多种配置和形状。因此,机器人不仅应该了解当前的布料配置,还应能够预测布的未来行为。本文通过使用模型预测控制(MPC)策略在对象的其他部分应用动作,从而解决了间接控制纺织对象某些点的配置的问题,该策略还允许间接控制的行为点。设计的控制器找到了最佳控制信号,以实现所需的未来目标配置。本文中的探索场景考虑了通过抓住其上角,以平方布的下角跟踪参考轨迹。为此,我们提出并验证线性布模型,该模型允许实时解决与MPC相关的优化问题。增强学习(RL)技术用于学习所提出的布模型的最佳参数,并调整所得的MPC。在模拟中获得准确的跟踪结果后,在真实的机器人中实现并执行了完整的控制方案,即使在不利条件下也可以获得准确的跟踪。尽管总观察到的误差达到5 cm标记,但对于30x30 cm的布,分析表明,MPC对该值的贡献少于30%。
translated by 谷歌翻译
Estimating the pose of an object from a monocular image is an inverse problem fundamental in computer vision. The ill-posed nature of this problem requires incorporating deformation priors to solve it. In practice, many materials do not perceptibly shrink or extend when manipulated, constituting a powerful and well-known prior. Mathematically, this translates to the preservation of the Riemannian metric. Neural networks offer the perfect playground to solve the surface reconstruction problem as they can approximate surfaces with arbitrary precision and allow the computation of differential geometry quantities. This paper presents an approach to inferring continuous deformable surfaces from a sequence of images, which is benchmarked against several techniques and obtains state-of-the-art performance without the need for offline training.
translated by 谷歌翻译
A generalized understanding of protein dynamics is an unsolved scientific problem, the solution of which is critical to the interpretation of the structure-function relationships that govern essential biological processes. Here, we approach this problem by constructing coarse-grained molecular potentials based on artificial neural networks and grounded in statistical mechanics. For training, we build a unique dataset of unbiased all-atom molecular dynamics simulations of approximately 9 ms for twelve different proteins with multiple secondary structure arrangements. The coarse-grained models are capable of accelerating the dynamics by more than three orders of magnitude while preserving the thermodynamics of the systems. Coarse-grained simulations identify relevant structural states in the ensemble with comparable energetics to the all-atom systems. Furthermore, we show that a single coarse-grained potential can integrate all twelve proteins and can capture experimental structural features of mutated proteins. These results indicate that machine learning coarse-grained potentials could provide a feasible approach to simulate and understand protein dynamics.
translated by 谷歌翻译
Generic motion understanding from video involves not only tracking objects, but also perceiving how their surfaces deform and move. This information is useful to make inferences about 3D shape, physical properties and object interactions. While the problem of tracking arbitrary physical points on surfaces over longer video clips has received some attention, no dataset or benchmark for evaluation existed, until now. In this paper, we first formalize the problem, naming it tracking any point (TAP). We introduce a companion benchmark, TAP-Vid, which is composed of both real-world videos with accurate human annotations of point tracks, and synthetic videos with perfect ground-truth point tracks. Central to the construction of our benchmark is a novel semi-automatic crowdsourced pipeline which uses optical flow estimates to compensate for easier, short-term motion like camera shake, allowing annotators to focus on harder sections of video. We validate our pipeline on synthetic data and propose a simple end-to-end point tracking model TAP-Net, showing that it outperforms all prior methods on our benchmark when trained on synthetic data.
translated by 谷歌翻译
自成立以来,建立在广泛任务中表现出色的普通代理的任务一直是强化学习的重要目标。这个问题一直是对Alarge工作体系的研究的主题,并且经常通过观察Atari 57基准中包含的广泛范围环境的分数来衡量的性能。 Agent57是所有57场比赛中第一个超过人类基准的代理商,但这是以数据效率差的代价,需要实现近800亿帧的经验。以Agent57为起点,我们采用了各种各样的形式,以降低超过人类基线所需的经验200倍。在减少数据制度和Propose有效的解决方案时,我们遇到了一系列不稳定性和瓶颈,以构建更强大,更有效的代理。我们还使用诸如Muesli和Muzero之类的高性能方法证明了竞争性的性能。 TOOUR方法的四个关键组成部分是(1)近似信任区域方法,该方法可以从TheOnline网络中稳定引导,(2)损失和优先级的归一化方案,在学习具有广泛量表的一组值函数时,可以提高鲁棒性, (3)改进的体系结构采用了NFNET的技术技术来利用更深的网络而无需标准化层,并且(4)政策蒸馏方法可使瞬时贪婪的策略加班。
translated by 谷歌翻译
基于强大的预训练语言模型(PLM)的密集检索方法(DR)方法取得了重大进步,并已成为现代开放域问答系统的关键组成部分。但是,他们需要大量的手动注释才能进行竞争性,这是不可行的。为了解决这个问题,越来越多的研究作品最近着重于在低资源场景下改善DR绩效。这些作品在培训所需的资源和采用各种技术的资源方面有所不同。了解这种差异对于在特定的低资源场景下选择正确的技术至关重要。为了促进这种理解,我们提供了针对低资源DR的主流技术的彻底结构化概述。根据他们所需的资源,我们将技术分为三个主要类别:(1)仅需要文档; (2)需要文件和问题; (3)需要文档和提问对。对于每种技术,我们都会介绍其一般形式算法,突出显示开放的问题和利弊。概述了有希望的方向以供将来的研究。
translated by 谷歌翻译
视频实例分割(VIS)在视频序列中共同处理多对象检测,跟踪和分割。过去,VIS方法反映了这些子任务在其建筑设计中的碎片化,因此在关节溶液上错过了这些子任务。变形金刚最近允许将整个VIS任务作为单个设定预测问题进行。然而,现有基于变压器的方法的二次复杂性需要较长的训练时间,高内存需求和处理低音尺度特征地图的处理。可变形的注意力提供了更有效的替代方案,但尚未探索其对时间域或分段任务的应用。在这项工作中,我们提出了可变形的Vis(Devis),这是一种利用可变形变压器的效率和性能的VIS方法。为了在多个框架上共同考虑所有VIS子任务,我们使用实例感知对象查询表示时间尺度可变形。我们进一步介绍了带有多尺度功能的新图像和视频实例蒙版头,并通过多提示剪辑跟踪执行近乎对方的视频处理。 Devis减少了内存和训练时间要求,并在YouTube-Vis 2021以及具有挑战性的OVIS数据集上实现了最先进的结果。代码可在https://github.com/acaelles97/devis上找到。
translated by 谷歌翻译
快速生产具有纳米分辨率的大面积模式对于已建立的半导体行业和实现下一代量子设备的工业规模生产至关重要。具有二进制全息掩模的亚稳定原子光刻被认为是当前最新水平的较高分辨率/低成本替代方法:极端紫外线(EUV)光刻。然而,最近表明,亚稳定原子与掩模材料(SIN)的相互作用导致波前的强烈扰动,而不是基于经典标量波。这意味着即使在1D中也无法在分析上解决逆问题(基于所需模式创建掩码)。在这里,我们提出了一种机器学习方法,以掩盖产生的目标是亚稳定性原子。我们的算法结合了遗传优化和深度学习来获得面具。一种新型的深神经结构经过训练,可以产生面膜的初始近似。然后,该近似值用于生成可以收敛到任意精度的遗传优化算法的初始种群。我们证明了Fraunhofer近似极限内系统维度的任意1D模式的产生。
translated by 谷歌翻译
自动语音识别(ASR)是新服务的关键元素,可帮助用户与自动化系统进行交互。深度学习方法使得用单词错误率低于5%的英语ASR部署系统成为可能。但是,这些方法的使用仅适用于具有数百或数千小时音频及其相应转录的语言。为了使所谓的低资源语言加快可以改善其ASR系统性能的资源的可用性,正在研究基于现有的资源来创建新资源的方法。在本文中,我们描述了我们的数据增强方法,以改善低资源和凝集性语言的ASR模型的结果。我们使用Wav2letter ++模型进行了为Quechua开发ASR的实验。通过我们的基本模型方法,我们将WER降低了8.73%。由此产生的ASR模型获得了22.75%的WER,并接受了99小时的原始资源和99小时的合成数据的培训,并结合了文本增强和合成语音发电
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译